腾讯 MimicMotion：基于置信度姿态引导的高质量人体运动视频生成

Original renee创业狗 Renee 创业随笔

2024-10-09

MimicMotion 能够生成任意长度的高质量视频，并模仿特定的运动引导。类似的项目之前介绍过很多：

本项目亮点：

引入了置信度姿态引导，确保了高帧质量和时间连续性。
引入了基于姿态置信度的区域损失放大，大大减少了图像失真。
为了生成长且平滑的视频，提出了一种渐进式潜在融合策略。

Showcases

动作
跳舞
说话

试用

可以在 Replicate - https://replicate.com/zsxkib/mimic-motion 上运行 MimicMotion 进行试用。

方法

MimicMotion 结合了图像到视频的扩散模型和新颖的置信度姿态引导。模型的可训练组件包括一个时空 U-Net 和一个用于引入姿态序列作为条件的 PoseNet。置信度姿态引导的关键特性包括：

姿态序列伴随着关键点置信度评分，使模型能够根据评分自适应地调整姿态引导的影响。
高置信度的区域在损失函数中赋予更大的权重，增强其在训练中的影响。

置信度姿态引导

我们利用姿态引导帧的亮度来表示姿态估计的置信度。

这种设计增强了生成对错误引导信号的鲁棒性（姿态 1&2），并提供了可见性提示以解决姿态模糊问题（姿态 3）。

特定区域的手部细化

我们实施了一种基于置信度阈值生成掩码的策略。对于置信度评分超过预设阈值的区域，我们取消掩码，从而识别出可靠的区域。在计算视频扩散模型的损失时，相应于未遮蔽区域的损失值会被放大，使其在模型训练中比其他遮蔽区域更有效。

在相同的参考图像和姿态引导下，进行手部增强训练能够显著减少手部失真并提升视觉效果。

渐进式潜在融合以实现时间平滑

我们提出了一种渐进式的方法来生成具有时间平滑效果的长视频。在每个去噪步骤中，视频片段首先在训练模型的条件下分别去噪，参考相同的图像和相应的姿态子序列。在每个去噪步骤中，图中用虚线框标记的重叠帧根据它们的位置逐步融合。

渐进式潜在融合实现了平滑过渡，避免了视频片段边界的突然变化，从而增强了长视频生成的整体视觉时间一致性。

对比

定性评估

定量评估

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

腾讯 MimicMotion：基于置信度姿态引导的高质量人体运动视频生成

本项目亮点：

Showcases

试用

置信度姿态引导

特定区域的手部细化

渐进式潜在融合以实现时间平滑

对比

定性评估

定量评估

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

腾讯 MimicMotion：基于置信度姿态引导的高质量人体运动视频生成

本项目亮点：

Showcases

试用

置信度姿态引导

特定区域的手部细化

渐进式潜在融合以实现时间平滑

对比

定性评估

定量评估

您可能也对以下帖子感兴趣